QeRL позволяет обучать 32B RL на одном H100 с NVFP4 — быстрее роллауты и лучшее исследование
'QeRL сочетает NVFP4 weight-only квантизацию с LoRA и AQN, ускоряя роллауты и позволяя обучить 32B политику на одном H100 при сопоставимой точности.'
Найдено записей: 10
'QeRL сочетает NVFP4 weight-only квантизацию с LoRA и AQN, ускоряя роллауты и позволяя обучить 32B политику на одном H100 при сопоставимой точности.'
'NVIDIA RLP вознаграждает «думание» перед предсказанием, давая плотный позиционный сигнал информационного прироста и улучшая результаты в задачах рассуждения при меньшем количестве данных.'
'AgentFlow предлагает модульную архитектуру и Flow-GRPO для обучения только Планировщика, демонстрируя значительные улучшения на десяти бенчмарках и доступный MIT-репозиторий.'
'Эксперименты Скиннера с голубями заложили идеи ассоциативного обучения, которые стали основой reinforcement learning и повлияли на развитие современных систем ИИ.'
Исследование Nebius AI и Humanoid применяет модифицированный DAPO для обучения открытой модели Qwen2.5 на многотуровых задачах разработки ПО, добившись 39% Pass@1 на SWE-bench Verified без учителя.
ProRLv2 увеличивает горизонт RL до 3000 шагов и демонстрирует значительные улучшения рассуждения в компактных языковых моделях, подтверждённые приростами по математике, кодированию и логике.
Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.
Модели Qwen2.5-Math значительно улучшают математическое мышление даже при обучении с неправильными или случайными наградами, что выявляет уникальные особенности усиленного обучения.
Microsoft Phi-4-reasoning показывает, что качественные и тщательно подобранные данные позволяют меньшим моделям ИИ выполнять сложные задачи рассуждения так же эффективно, как и гораздо большим моделям, опровергая миф о необходимости больших моделей.
'ZeroSearch от Alibaba обучает языковые модели поиску с помощью усиленного обучения и симулированных документов без использования дорогих API реального поиска, достигая результатов, сравнимых с Google Search.'